【Day 1】探索 LLM 可觀測性之旅

17th鐵人賽 llm observability ai agent

mikehsu0618

2025-09-15 00:29:56

593 瀏覽

分享至

前言

2025 年可以說是 LLM 應用真正大放異彩的一年。原因在於，LLM 的使用場景早已不再侷限於像 ChatGPT 這樣的網頁聊天視窗，如今它已經延伸到 Coding IDE、雲端、離線設備，甚至更多的場域。而隨著 Agent 型 LLM 在複雜交互場景的普及，它們幾乎成了現代應用服務的「標準配備」。LLM 對自然語言的理解能力，讓我們得以在各種場景中大展身手。

Grafana Assistant demo 連結

沒有人能否認，LLM 在各種領域都帶來了驚喜與價值。它已經證明能在不同程度上提升人類生產力。對我這樣一個「通靈師」而言，痛點在於：即使手中擁有許多可觀測性工具，當事故突如其來時，我們依然只能憑經驗與直覺，在 Grafana 裡切換各種監控面板，從龐雜的數據中找出根因，才能解決問題。這不禁讓我聯想到 LLM 的強項不正是「消化大量資訊並給出總結」嗎？這與 DevOps / SRE 日常的基本操作如出一轍。於是，我開始動手打造一個在 Grafana 中原生運行的 LLM Agent，以提升效率並確保最佳體驗，最終誕生了類似 Cursor 的 AI 助手「Grafana Assistant」。

然而，在開發過程中我逐漸意識到，LLM 應用的自由度與其除錯難度成正比。正因為它的「自由」，輸入與輸出往往充滿不確定性，相較於傳統應用的穩定與可控，複雜度上升了不只「億點點」。對於需要穩定品質的企業場景，或高度合規的產業來說，這是一個巨大的挑戰。而「LLM 可觀測性」正是我們打開這個黑盒子、逐步建立生產級應用的必經之路。

LLM 可觀測性的定位與差異：為什麼它與傳統可觀測性不同，以及我們該如何看待這個新領域。
LLM Agent 應用的概念：探索代理型 LLM 在複雜交互中的角色與價值。
可持續擴展的 AI 系統架構：深入討論在大規模生產場景中，如何設計出穩定且能長期演進的基礎架構。

如果對於 Grafana 全家桶或 Kubernetes 有興趣的朋友，不彷先回頭參考一下以下系列文：

從異世界歸來發現只剩自己不會 Kubernetes 系列

你以為你在學 Grafana 其實你建立了 Kubernetes 可觀測性宇宙系列

後 Grafana 時代的自我修養系列

概念篇：

應用篇：

架構篇：

結論

又到了鐵人賽開賽的這一天了，照慣例的預祝每個奮鬥的黑眼圈鐵人們參賽順利，能夠在這短短的幾個月中，透過研究分享最終得到突飛猛進的理解，向自己嚮往的學習目標前進。

回顧去年到今年初，我依然專注於所謂的「傳統可觀測性」領域，不斷打磨自己的觀點與理解。但 LLM 世界的爆炸性發展，直到我真正動手做了一個 LLM 應用後，才深刻衝擊了我。從第一次調用 OpenAI API，到第一次撰寫的 tool 被納入 Agent 的工具箱，我逐漸被 LLM 與各種終端的交互行為所吸引。它彷彿有問必答、全能全知，看似完美無缺，卻又暗藏著巨大的不可控性。

很多人說，未來 LLM 應用將會滲透到每一個領域。而在我看來，LLM 可觀測性就是下一個風口。或許這個判斷有些武斷，但至少我自己是買單的：）。於是，在這一屆鐵人賽，就跟著我一起走進這個充滿不確定性的世界，嘗試理解、擁抱，並與之共舞。